有些人认为可视化只是把计算分析的结果图形化。
实则不然,可视化是人类认识、分析复杂数据的重要途径。
数据可视分析
数据可视化的挑战
计算能力有限、感知和认知的局限、显示能力的局限
大数据可视化
以人为中心的探索式可视分析(关注)
可视化框架
可视化循环模型
可视分析流程
数据转化、可视映射、视图转化
原数据->转化后的数据->可视结构->视图
如:我们选择线性投影将30维的原数据降为5维度的转化数据,再使用平行坐标视觉映射转为可视结构,然而数据有相互遮挡,则选择PCP方法视图转化至视图上。最后呈现热力图式的平行坐标。
基本图表
原始数据
数据轨迹、柱状图(x轴为类别型,主要用于统计值)、直方图(x轴为数据型,主要用于频率)、饼图(比例)、散点图与散点图矩阵(属性对的关系、热力图(颜色编码二维数据值的大小)
统计值标绘制
盒须图,上面最大值、下面最小值、盒子表示数据大致范围25-75%
多视图协调关联
选择后高亮
交互技术
选择 selection
数据过多视觉混乱:堆叠区域和对象放大
选择后展示提示信息:字符串在有限空间排列,不选择的时候隐藏,选择后展开
导航 navigation
人眼观察到区域可见空间有限
缩放
平移
旋转
重配 reconfigure
提供观察数据的不同视角
重组视图
重排列
编码 encode
颜色编码、大小、方向、字体、性状
抽象 abstraction
不同等级的信息,交互控制获得更多或更少的细节
过滤 filter
设置约束条件进行信息查询
eg.选定价格房型,地图上出现复合房子
动态过滤:滑动框、按钮、组合框,过滤条件之间不相关
关联 connection
高亮显示对象之间关系
链接与刷动 刷选对象,其余都可高亮
概览+细节 overview+details
谷歌地图右下角全局,主页面当前区域
焦点+上下文 focus+context
高维数据可视化
高维多元数据——独立属性、相关数据
可视分析——维度太高,难以提取可理解的维度关联信息。高于10维的数据
空间映射法
散点图与散点图矩阵
平行坐标
降维(重要)
线性方法和非线性方法,将高维数据投影project或嵌入embed至低维空间(通常为2、3维),并尽量在低维空间保持多元空间中的关系和特征。
最后展示的方法一般为散点图。
主元分析 PCA(无监督)
减少维度,保持数据集方差贡献最大的特征。(在低维空间找一个观察角度,以便最大限度观察多维数据的差异。)
第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。
通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。
1 | 去除平均值 |
线性判别分析 LDA(有监督)
也叫Fisher线性判别。
抽取分类信息和压缩特征空间维数,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。
优化目标J最大,获得最优投影向量w:使用矩阵分解,得到特征值最大的特征矩阵的第一行。
多维尺度分析 MDS multimensioanal scaling
###
图标
星状图